class: center middle main-title section-title-1 top-logo .small[ # Análisis Factorial Exploratorio ] .class-info[ <br> **Sesión N° 5**<br> **Análisis Avanzado de Datos II** <br> .pull-right.small[ **Profesor** Gabriel Sotomayor López <br> **Ayudantes** Anaís Herrera Francisco Meneses .tiny[Universidad Diego Portales<br> ] ] ] --- class: title title-inv-1 # Contenidos Sesión N°5 .box-2.medium.sp-after-half[**Análisis Factorial Exploratorio (y Análisis de Componentes Principales)**] .box-4.medium.sp-after-half[**Etapas del análisis factorial**] .box-1.medium.sp-after-half[**Preparación de los datos y evaluación de supuestos**] --- class: title title-inv-1 # Contenidos Sesión N°5 .box-2.medium.sp-after-half[**La extracción de factores iniciales**] .box-4.medium.sp-after-half[**La obtención de la matriz factorial y su interpretación**] .box-1.medium.sp-after-half[**La evaluación del modelo factorial.**] .box-3.medium.sp-after-half[**Cálculo de las puntuaciones factoriales**] --- class: center middle main-title section-title-2 top-logo # Análisis Factorial Exploratorio (y ACP) --- class: title title-2 # Variables latentes en Ciencias Sociales En ciencias sociales muchos de los conceptos que usamos no pueden medirse directamente: el autoritarismo, la conciencia de clase, el capital cultural, etc. Estos corresponden a variable latentes: variables que no puede ser directamente observada o medida, pero se puede inferir a través de la medición de otras variables relacionadas. Es decir, una variable latente es una construcción teórica o abstracta que no se puede medir directamente, pero que se asume que está influyendo en los datos observados. --- class: title title-2 # Variables latentes en Ciencias Sociales La medición de variables latentes requiere de que contemos con un **modelo de medición**. Permiten evaluar la manera en que se relacionan un conjunto de variables observadas y si estas efectivamente miden un concepto teórico de interés: - Análisis factorial exploratorio - Análisis factorial confirmatorio --- class: title title-2 # Análisis Factorial Exploratorio Conjunto de técnicas de análisis **Se busca la síntesis de la información proporcionada por “p” variables observadas (o indicadores), con la menor pérdida posible de información, en un número inferior de “k” variables no observadas** (factores comunes). Esta serie menor de variables latentes ha de caracterizarse por aglutinar variables empíricas que estén bastante correlacionadas entre sí y escasamente correlacionadas con aquellas variables empíricas que conforman otra estructura latente (o dimensión del concepto que se analice). --- class: title title-2 # Análisis Factorial Exploratorio Tiene dos objetivos principales: 1. Analizar la correlación existente en una serie de variables, con el propósito de descubrir si comparten alguna estructura latente (no directamente observable). 2. La obtención de puntuaciones factoriales, variables típicas o, en su caso, variables sucedáneas, para cada factor. Éstas actuarán en representación de los factores o componentes en análisis posteriores. --- class: title title-2 # Análisis Factorial Exploratorio .center[] .small[Cada variable observada X¡ se expresa mediante una combinación lineal de un número pequeño de factores comunes latentes y un factor único, también latente. Estos últimos representan la parte de la varianza de la variable observada que “no” es explicada por los factores comunes. La elección de la letra “e” para denotar al factor único procede de su consideración como “término de error”.] --- class: title title-2 # AFE y ACP Además del análisis factorial, otra técnica que se usa frecuentemente para la reducción de dimensiones de conjuntos de variables es el Análisis de Componentes Principales. Se diferencia principalmente porque este último trabaja con la varianza total de las variables, mientras que el AFE utiliza solo la varianza común de las variables, la comunalidad. --- class: center middle main-title section-title-4 top-logo # Etapas del Análisis Factorial Exploratorio --- .center[] --- class: center middle main-title section-title-1 top-logo # Preparación de los datos y evaluación de supuestos --- class: title title-1 # Supuestos del AFE - Nivel de medición - Tamaño muestral - Normalidad - Colinealidad - Multicolinealidad - Tratamiento de casos perdidos y casos atípicos --- class: title title-1 # Nivel de medición .center[ El AFE requiere que las variables sean continuas, o variables ordinales que trataremos como tales. Esto puede resolverse también con el tipo de matriz de correlaciones a utilizar] --- class: title title-1 # Tamaño Muestral Como piso mínimo se requieren 5 casos por cada variable que se incluya en el análisis, sin embargo, es preferible contar con al menos 20. Tamaños muestrales mayores ayudarán a obtener estimaciones muestrales estables. Cómo mínimo se esperan unos 200 o 300 casos en total. Debe considerarse los casos perdidos y aquellos que puedan ser eliminados por ser casos atípicos. --- class: title title-1 # Normalidad (Multivariante) Todas las variables observadas y sus combinaciones lineales han de estar distribuidas normalmente. Es decir, se espera que exista normalidad univariada en cada variable y normalidad multivariante. El uso de procedimientos de extracción habituales en AFC, como los llamados “máxima verosimilitud” (ML) o “mínimos cuadrados” exige el cumplimiento del supuesto de normalidad multivariable. Cuando no se cumple habrá que buscar que cada variable no sea extremadamente asimétrica (se sugiere coeficientes de asimetría que se encuentren dentro de un intervalo de +-2). --- class: title title-1 # Colinealidad Para la extracción de factores comunes debe existir varianza común entre las variables, de lo contrario es poco probable encontrar estructuras latentes relevantes. Como mínimo, se espera la existencia de correlaciones de al menos 0,3 entre las variables. Según el nivel de medida pueden utilizarse correlaciones de Pearson (variables continuas o ordinales de suficientes categorías) o policóricas (variables ordinales) --- class: title title-1 # Correlaciones policoricas Las correlaciones policóricas son una medida de asociación entre variables ordinales que se basa en la teoría de correlación de Pearson y tiene en cuenta la naturaleza discreta de los datos. Supone una variable subyacente continua y teóricamente normal. Se recomienda un mínimo de 50 observaciones. Sólo se interpreta sentido y fuerza, no un p de significación. En el caso de variables dicotómicas se utilizan correlaciones tetracóricas. --- class: title title-1 # Multicolinealidad Además de las correlaciones bivariadas existen pruebas estadísticas que nos permiten establecer la existencia de multicolinealidad en el conjunto de variables. .small[**Test de esfericidad de Barlett**: Esta prueba se utiliza para determinar la existencia de multicolinealidad en un conjunto de datos. Si el valor-p es significativo (generalmente <0,05), entonces se rechaza la hipótesis nula de que la matriz de correlación es igual a una matriz de identidad, lo que indica la presencia de multicolinealidad. **Su correcta interpretación requiere de la existencia de normalidad multivariante**, por lo que en caso de que esta no exista, debe priorizarse la interpretación de la prueba KMO.] --- class: title title-1 # Multicolinealidad: KMO .small[La **prueba KMO (Kaiser-Meyer-Olkin)** se utiliza para evaluar la presencia de multicolinealidad en un conjunto de variables. La prueba produce un valor de MSA (Medida de adecuación de la muestra) para el conjunto de datos y para cada variable individual en el conjunto de datos. Existen diferentes criterios para interpretar los valores del índice KMO en el AFE , pero algunos de los umbrales comúnmente utilizados son: .small[- Excelente adecuación: KMO mayor que 0,9. - Buena adecuación: KMO entre 0,8 y 0,9. - Adecuación aceptable: KMO entre 0,7 y 0,8. - Inadecuada adecuación: KMO menor que 0,7. Es importante tener en cuenta que estos umbrales son solo una guía general y que la interpretación de los resultados del AFE debe basarse en varios criterios, incluyendo el juicio del investigador, la coherencia con la teoría y la interpretación de los patrones de carga factorial.]] --- class: title title-1 # Tratamiento de variables Antes de realizar un AFE debemos revisar dos decisiones respecto a los datos: La existencia de **casos atípicos** y de **casos perdidos**. Casos perdidos: - Proporción de casos perdidos (10% aprox) - Distribución aleatoria o no de los casos perdidos - Imputación de datos: media, regresión lineal, criterio de investigación, imputación múltiple --- class: title title-1 # Tratamiento de variables Antes de realizar un AFE debemos revisar dos decisiones respecto a los datos: La existencia de **casos atípicos** y de **casos perdidos**. Casos atípicos: Debe realizarse un diagnóstico de casos atípicos multivariantes, es decir, aquellos que se alejan del centro medio de las observaciones en un espacio multidimensional. Esto se mide con la distancia de Mahalanobis (distancias mayores a 0,001 se consideran atípicas) --- class: title title-1 # .small[Tratamiento de variables: estandarización] - La estandarización favorece la comparabilidad de variables y es comúnmente utilizada en análisis factorial. - Se realiza mediante la transformación de las variables a puntajes Z. - La varianza de las variables depende de su unidad de medida, por lo que la estandarización permite comparar variables con diferentes grados de heterogeneidad. - La elección de la matriz de entrada para obtener un modelo factorial depende de si las variables están en su unidad original o estandarizadas. --- class: center middle main-title section-title-1 top-logo .small[ # Análisis Factorial Exploratorio ] .class-info[ <br> **Sesión N° 5**<br> **Análisis Avanzado de Datos II** <br> .pull-right.small[ **Profesor** Gabriel Sotomayor López <br> **Ayudantes** Anaís Herrera Francisco Meneses .tiny[Universidad Diego Portales<br> ] ] ]